一、测序原理 先介绍 Nanopore 测序中的几位主角: Reader :在自然界中,有一种可以嵌入到细胞膜中作为离子或分子通道的跨膜蛋白,具有天然的蛋白纳米孔。 二、测序仪介绍 虽然 Nanopore 测序仪种类很多,但都是基于Nanopore芯片来搭建的平台,大到由多个芯片阵列组成的PromehION,GridION系列测序仪,小到可以连接手机的Type C, 电脑USB的MnION系列便携式测序仪。 这里边,最著名的就是MnION系列,2016年8月,美国宇航员凯特·鲁宾斯在国际空间站完成微重力条件的DNA测序。 它在测序时,一般像下图这样连接就行,显而易见的便携性。 测序时,将制备好的文库或样本溶液,滴在芯片小孔中,开始测序。 ?
最近,李老师就收到了这样一位同学的咨询:“我在测序服务商那里看到了直接RNA测序(DRS) 项目,这是什么技术?我的课题是否适合?” 01 传统转录组测序:一份信息的“转译本” 在我们深入了解DRS之前,让我们先回顾一下最常见的转录组测序流程。无论是二代还是三代,常规方法通常都基于cDNA-PCR: 首先,提取样本中的总RNA。 接着,通过PCR对cDNA进行扩增,以获得足够的测序文库量。 最后,构建文库并上机测序。 这个流程已经非常成熟和稳定,但它存在一个天然的限制:我们最终测序的并非RNA本身,而是经过“转译”和“复印”的cDNA。 02 直接RNA测序(DRS):直击RNA的“原始手稿” Direct RNA Sequencing(DRS),即直接RNA测序技术,其最大的不同点就在于——它彻底绕开PCR过程,直接将天然的RNA链送入纳米孔通道进行信号的采集和序列的测定
1.第一代DNA测序技术桑格尔-双脱氧链终止法 是最为经典的一代测序技术,至今仍是测序行业的金标准。 人类基因组计划(HGP)主要基于第一代测序技术。 HGP完成后,进入后基因组时代,成本高、通量低的传统测序技术不能满足深度测序和重复测序等大规模基因组测序的要求。 2.第二代DNA测序技术(next generation sequencing,NGS )-循环阵列合成测序法。 二代测序大幅度提高了测序速度,降低了测序成本(下图),保持了高准确性。 3.第三代测序技术 以PacBio公司的SMRT和Oxford Nanopore Technologies 的纳米孔单分子测序技术为标志,不需要经过PCR扩增,超长读长,可达二代测序的100倍以上,实现了对每一条 DNA分子的单独测序。
(CLR) Sequencing 六、其他影响因素 1、GC bias 影响 2、读长的限制因素 3、测序通量 目前主流三代测序平台除了Oxford 家的 Nanopore,还有 Pacific 高度重复序列,回文序列等,不会产生GC的较大偏差 可以直接测取化学修饰,在表观遗传学中有重要应用 吃个瓜,2018年11月1日,Illumina 同意以12亿美元现金收购 PacBio 和其三代测序技术 上面整齐排列着15万个直径为70纳米的测序微孔(Zero-Model Waveguides,ZMWs)。 四、上机测序 1、构建测序复合物 测序复合物:聚合酶,测序模板,测序引物 ? 五、测序模型 SMRT 测序有如下两种测序模式: 1、Circular Consensus Sequencing (CCS) 说这种测序模型前,就不得不提三代测序最大的缺点:碱基读取不准,错误率在12.5% SMRT 在测序过程中,没有 PCR 过程,因此富含GC含量高,含量低的 Reads 片段都会有相似的概率被测序,所以三代测序中的 GC Bias 影响小。
目前主流三代测序平台除了Oxford 家的 Nanopore,还有 Pacific Biosciences(简称 PacBio)公司的 Single Molecule Real-Time(SMRT)Sequencing 区域,高度重复序列,回文序列等,不会产生 GC 的较大偏差 可直接测取化学修饰,在表观遗传学中有重要应用 吃个瓜,2018年11月1日,Illumina 同意以 12 亿美元现金收购 PacBio 和其三代测序技术 接下来,我们看看它如何巧妙地完成这样的高质量三代测序。 1 基本原理 边合成边测序,与前文我们说的 Illumina 的基本测序原理一样。 5 测序模型 SMRT 测序有如下两种测序模式: 1、Circular Consensus Sequencing (CCS) 说这种测序模型前,就不得不提三代测序最大的缺点:碱基读取不准,错误率在12.5% SMRT 在测序过程中,没有 PCR 过程,因此富含 GC 含量高,含量低的 Reads 片段都会有相似的概率被测序,所以三代测序中的 GC Bias 影响小。
在三代测序技术的璀璨星空中,纳米孔测序以其独特的“实时、长读长”特性而备受瞩目。一个常常萦绕在研究者,特别是初学者心头的问题便是:“纳米孔测序到底能测多长? 纳米孔测序的“无限”潜力:原理上的“无天花板” 首先,我们需要明确纳米孔测序的一个显著优势:其读长在理论上并不受仪器本身的限制。 此外,测序芯片上的马达蛋白、纳米孔蛋白以及其镶嵌的生物膜,其活性和寿命也是有限的,不可能无限期地稳定工作。这些因素都会共同影响最终可获得的测序读长。 一旦发生堵孔,该孔道的测序就会终止,这不仅影响了单条read的长度,也会降低整个测序芯片的数据产出。 对于基因组拼接、复杂结构变异检测、全长转录本测序等核心任务而言,几十kb到上百kb的读长已经足以提供关键的结构信息,帮助我们攻克二代测序难以逾越的障碍。
作为一款纳米孔测序仪,现阶段测序所得的碱基质量会普遍偏低,根据官网性能参数的介绍,两款纳米孔测序仪的单次碱基准确率在97%左右,也就是Q15。因此,对下机数据进行质量查看和质控是数据分析前重要的一步。 对于三代纳米孔测序平台,查看数据统计信息和质量最常用的就针对牛津纳米孔(ONT)数据开发的Nanopack分析套装,如NanoPlot,NanoComp和NanoQC,以及老牌质控软件fastp针对三代长度长数据优化的 此分析用以帮助用户评估测序数据的准确性。 Low complexity regions(低复杂度区域):以图形可视化展示从bam文件统计得到的低复杂度区域,即homo/heteropolymer区域的测序错误模式(图12),以及它们对测序错误的贡献度 对于基因组中(X)_n的homopolymer区域,若在测序结果中仍然保持(X)_m的形式,如果长度一致,即m=n,则测序正确,若长度发生改变,即m≠n,则我们将这种情况成为发生expansion(m>
目前主流三代测序平台除了Oxford 家的 Nanopore,还有 Pacific Biosciences(简称 PacBio)公司的 Single Molecule Real-Time(SMRT)Sequencing 或GC区域,高度重复序列,回文序列等,不会产生GC的较大偏差 可直接测取化学修饰,在表观遗传学中有重要应用 吃个瓜,2018年11月1日,Illumina 同意以12亿美元现金收购 PacBio 和其三代测序技术 接下来,我们看看它如何巧妙地完成这样的高质量三代测序。 1 基本原理 边合成边测序,与前文我们说的 Illumina 的基本测序原理一样。 5 测序模型 SMRT 测序有如下两种测序模式: 1、Circular Consensus Sequencing (CCS) 说这种测序模型前,就不得不提三代测序最大的缺点:碱基读取不准,错误率在12.5% SMRT 在测序过程中,没有 PCR 过程,因此富含GC含量高,含量低的 Reads 片段都会有相似的概率被测序,所以三代测序中的 GC Bias 影响小。
提起二代测序数据质控软件 fastp,相信大家一定不会陌生。 对于三代测序长度长数据来说,你是否和我一样在纠结究竟该使用哪一款软件对原始下机数据进行质量控制和过滤修剪呢? 在拿到测序质量未知的数据时,大家可以使用 LongQC 或 LongReadSum 等软件对数据质量进行查看统计,使用 chopper 对序列进行过滤修剪。 一、软件介绍fastplong 是一款长读长测序数据(如纳米孔测序、PacBio 测序、Cyclone 测序等)的超快速预处理与质量控制软件。 --poly_x_min_len 检测序列尾部 polyX 的最小长度。默认值为 10。
1 扫描图(Scanning Genome)/ 草图(Draft Genome): 这通常是指利用纯二代短读长测序技术(NGS) 对细菌基因组进行测序,然后通过生物信息学软件拼接组装后获得的基因组序列。 这通常需要二代与三代测序技术的强强联合。 其中,二代测序提供高精度的单碱基信息,如同对每一块拼图碎片的细节进行高清拍照;而三代测序(如PacBio或ONT) 则凭借其超长读长,轻松跨越那些困扰二代测序的重复区域和复杂结构,如同找到了能将不同区域连接起来的关键长条形碎片 技术演进与成本考量:理想与现实的平衡 “在早期,由于三代测序技术尚不成熟,其高错误率和昂贵的价格使得大多数研究只能望而却步,选择扫描图是当时最现实的选择。”李老师回顾道。 然而,随着技术的飞速发展,如今的三代测序,特别是PacBio HiFi技术,其准确度已大幅提升,同时测序成本也逐渐亲民,这使得获取细菌完成图变得日益普遍。
测序: 数据分析流程:对于 PacBio 测序数据,采用 pbmm2 比对,ONT 测序用minimap2 比对。 这些结果表明,长读长测序技术在覆盖复杂基因组区域方面具有显著优势。 SNV和indel检测:在SNV和indel检测方面,长读长测序技术表现优异。 长读长测序技术在检测复杂变异(如插入和缺失)方面表现尤为突出。 结构变异(SV)检测:长读长测序技术在SV检测方面显著优于短读长测序。 长读长测序技术能够更好地覆盖这些复杂基因,尤其是在重复序列较多的区域。 临床意义:长读长测序技术在检测与疾病相关的变异方面具有显著优势。 本研究通过对比长读长和短读长测序技术在AoU项目中的表现,展示了长读长测序技术在检测复杂基因组变异方面的显著优势。
三代测序技术以其直接读取长片段DNA或RNA的能力,在基因组从头组装和全长转录组分析等领域展现出无与伦比的优势。然而,在许多研究场景中,我们的兴趣并非遍布整个基因组,而是聚焦于特定的基因或功能区域。 最近,李老师就收到了许多老师的咨询:“如果我只对特定的基因或基因组区域感兴趣,适用于三代测序平台的靶向富集方案都有哪些?” 今天,我们就来系统地梳理一下当前主流的几种策略。 在三代测序平台上,目前常见的靶向富集策略大体可以分为四种:PCR或多重PCR扩增法,靶向探针捕获法,ONT平台的自适应采样技术,以及ONT开发的基于CRISPR/Cas9的靶向测序方案。 随后,利用Tn5转座酶等技术,直接在这些切口处高效地连接上测序接头。这样,在测序时,只有那些成功连接了接头的靶区域片段才能被有效测序。 希望这份梳理能帮助您在启动三代靶向测序项目时,做出最明智的决策。我们下期再见!
一、LongReadSum简介LongReadSum 是美国费城儿童医院Kai Wang教授团队(图1)开发的一款专门针对长读长测序数据设计的快速质控工具(如纳米孔测序、PacBio测序等)。 全基因组测序(WGS)BAM文件 (示例)对于全基因组测序数据,经过与参考基因组(如人类的GRCh38)比对后生成的BAM文件,LongReadSum可以生成详细的质控报告,包括读长分布、碱基质量等信息 ONT POD5文件(示例)ONT POD5 文件是 Oxford Nanopore 测序数据的一种格式,包含原始信号数据。 ONT FAST5文件(示例)ONT FAST5文件是 Oxford Nanopore 测序数据的另一种格式,包含原始信号数据和 basecalling 信息。 四、输出结果LongReadSum生成的质控报告包括HTML(图2)和文本格式的文件,包括:碱基质量分布:展示测序数据的碱基质量分布情况。读长分布:分析测序读长的分布范围。
在过去的系列文章中,我们从平台选择、数据质控等“硬件”层面深入探讨了三代测序的诸多细节。今天,我们将视角转向三代测序的应用领域——全长转录组测序。 此时,三代长读长测序技术便以其独特的优势,为我们打开了一扇通往更精细转录调控世界的大门。 二代 vs 三代:从“推测”到“直击”的跨越 二代RNA-seq的局限: 由于其测序读长较短(通常为50-150bp),二代测序无法一次性覆盖完整的mRNA分子。 三代全长转录组的优势: 三代测序技术,凭借其数千乃至数万碱基的超长读长,能够轻松地一次性完整读取整个mRNA分子的序列,从5’端到3’端,无需拼接。 大家可能会好奇,三代测序是如何特异性地捕获这些全长转录本的呢?
三代测序的优势: 三代测序凭借长读长,能够一次性完整跨越整个变异区域。以 -地中海贫血为例,其致病机制常涉及 HBB 基因簇的大片段缺失。 三代测序不仅能精准检出这些缺失,还能精确通过断点序列还原复杂的结构重排。对于疑难地贫、染色体微缺失/微重复综合征等疾病,三代测序提供了更敏锐的“显微镜”。 二代测序常将假基因上的序列错误地比对到真基因上(误报突变),或反之(漏检突变)。 三代测序的优势: 三代长读长序列通常包含了基因两侧特异性的侧翼序列或内含子差异序列。 这些独特的“锚点”使得三代测序能够轻松区分真假基因,将Reads精准地回帖到正确的位置。对于 CYP 家族、SMN1/2(脊髓性肌萎缩症)、HLA 等复杂基因家族,三代测序具有绝对的分析优势。 三代测序的优势: 三代测序能够完整地通读整个重复扩增区域,无论其长度是几十还是几百个重复单位。
当我们谈及三代纳米孔测序,脑海中浮现的第一印象往往是其无与伦比的长读长能力,从数万碱基(kb)到数兆碱基(Mb),它为基因组学研究带来了革命性的突破。然而,生命科学的探索并非总是“越长越好”。 最近,李老师就被问及一个非常具体且前沿的问题:“我想做人体体液中cfDNA的测序,三代纳米孔测序是否适用于这类短片段DNA呢?” 今天,我们就来深入探讨纳米孔测序在片段大小“下限”上的表现。 纳米孔测序的“全覆盖读长”特性与物理限制 纳米孔测序的一个核心特性是“全覆盖读长” ——它既能测长片段,也能兼顾短片段。 技术迭代:突破短片段测序瓶颈 面对短片段测序的挑战,ONT及其社区并未止步不前,而是通过化学和算法的双重优化,不断拓宽技术的应用边界。 可以预见,随着建库化学、测序芯片和碱基识别算法的不断迭代更新,纳米孔测序在处理cfDNA等体液游离核酸方面的性能将持续提升。
在前几期《三代测序100问》【三代测序100问:从“小白”到“大牛”,三代科研进程启动 、三代测序技术100问(1):NGS与第三代测序,如何做出明智选择? 、三代测序技术100问(2):PacBio 与 ONT,谁是你的长读长利器?】中,我们一同探索了三代与二代测序的选择之道,也深入剖析了PacBio与ONT两大主流平台的特性。 通用法则:选择测序服务商的七个标准 无论是二代还是三代测序,选择服务商时,一些普适性的考量因素始终是基石。 三代测序的“特殊考量”:于细微处见真章 然而,当我们将目光转向三代测序,选择的复杂性便陡然增加。 挑选三代测序服务商,无疑是一项技术活,也是一门平衡的艺术。
在上一篇《三代测序100问:从“小白”到“大牛”,三代科研进程启动》,我们启动了“三代测序技术100问”系列,旨在系统梳理三代测序技术从基础原理到前沿应用的关键知识点。 核心观念:技术无绝对优劣,应用场景定取舍 “首先,我们需要明确一点,”李博士强调,“测序技术的发展,从一代Sanger测序,到二代高通量短读长测序,再到三代长读长测序,并非简单的迭代取代关系。 图1 已知区域单核苷酸突变检测 第三代测序(TGS):攻克复杂区域的长读长利器 第三代测序的核心优势在于其产生的超长读长,这使其能够有效解决NGS短读长所面临的挑战,尤其是在解析基因组复杂区域方面。 对于追求极致结果且预算允许的项目,联合使用二代和三代测序已成为一种强大的研究策略。 敬请持续关注《三代测序技术100问》系列!
Canu软件简介 Canu软件是Celera Assembler基因组组装软件的一个分支,能利用测序错误率较高的三代测序数据(PacBio或Nanopore)进行基因组De novo组装。 Canu软件的运行分四个步骤:(1)首先,调用MHAP软件对错误率较高的三代测序raw reads进行比对,找序列之间的重叠;(2)然后,通过一致性分析方法对reads进行校正;(3)对reads两端覆盖度较低无法校正的碱基进行截短 -p : 设置输出文件前缀,此参数是必须的; -d : 设置输出文件路径; -pacbio-raw : 设置原始pacbio测序数据路径; -pacbio-corrected : 设置修正后的pacbio 测序数据路径; -nanopore-raw :设置原始nanopore测序数据路径; -nanopore-corrected :设置修正后的nanopore测序数据路径; genomeSize : 设置预估的基因组大小 ,这用于让Canu估计测序深度; maxThreads : 设置运行的最大线程数。
而三代测序可以获得全长转录组数据,对于挖掘新转录本以及isoform有着重要的意义。 三代测序是指单分子测序技术,在测序过程中,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序。 目前主流的三代测序平台有PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术(有时候也称作四代)。 同时,三代测序技术也存在一些缺点,比如三代测序依赖DNA聚合酶的活性;测序成本很高而且错误率较高(大约在15%-40%)。 三代测序与单细胞转录组结合会解决二代测序转录组读长较短和无法获取全长转录本数据的局限性,可以将单细胞水平的研究变得更加“精细”。 相信随着三代测序准确度的提高、成本的下降以及生信分析的越来越完善,三代测序将会有更多的有待开发的应用场景。 参考文献 1.